19. september 2025Dansk

Frigør potentialet i Pandas GroupBy til dataanalyse. Denne guide udforsker aggregerings- og transformationsteknikker med praktiske eksempler for internationale data.

Behersk Pandas GroupBy-Operationer: Aggregering vs. Transformation

Pandas, hjørnestenen i datamanipulation i Python, tilbyder et kraftfuldt værktøj til at analysere og forstå data: GroupBy-operationen. Denne funktion giver dig mulighed for at segmentere dine data i grupper baseret på fælles karakteristika og derefter anvende funktioner på disse grupper, hvilket afslører indsigter, der ellers ville forblive skjulte. Denne artikel dykker dybt ned i to centrale GroupBy-operationer: aggregering og transformation, og giver praktiske eksempler og forklaringer, der er egnede for data-professionelle verden over.

Forståelse af GroupBy-Konceptet

I sin kerne er GroupBy en proces, der involverer tre hovedtrin: opdeling af data i grupper baseret på et eller flere kriterier, anvendelse af en funktion på hver gruppe uafhængigt, og kombinering af resultaterne i en ny datastruktur. Denne "split-apply-combine"-strategi er et grundlæggende koncept inden for dataanalyse og giver en fleksibel ramme for at udforske komplekse datasæt.

Styrken ved GroupBy ligger i dens evne til at håndtere forskellige datatyper og strukturer, hvilket gør den anvendelig på tværs af diverse domæner. Uanset om du analyserer salgsdata fra flere regioner, sensoraflæsninger fra forskellige enheder eller social media-aktivitet på tværs af demografier, kan GroupBy hjælpe dig med at udtrække meningsfulde indsigter.

Aggregering: Opsummering af Data Inden for Grupper

Aggregering er processen med at beregne opsummerende statistik for hver gruppe. Disse statistikker giver et kortfattet overblik over gruppens karakteristika, hvilket giver dig mulighed for at sammenligne og kontrastere forskellige segmenter af dine data. Almindelige aggregeringsfunktioner inkluderer:

sum(): Beregner summen af værdier inden for hver gruppe.
mean(): Beregner gennemsnitsværdien inden for hver gruppe.
median(): Beregner medianværdien inden for hver gruppe.
min(): Finder minimumsværdien inden for hver gruppe.
max(): Finder maksimumsværdien inden for hver gruppe.
count(): Tæller antallet af ikke-null-værdier inden for hver gruppe.
size(): Returnerer størrelsen af hver gruppe (inklusive null-værdier).
std(): Beregner standardafvigelsen inden for hver gruppe.
var(): Beregner variansen inden for hver gruppe.

Praktiske Eksempler på Aggregering

Lad os betragte et datasæt med internationale salgsdata for en hypotetisk e-handelsvirksomhed. Dataene indeholder information om produktkategori, salgsland og salgsbeløb.

            
import pandas as pd

# Eksempeldata
data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home Goods', 'Electronics', 'Clothing', 'Home Goods'],
    'Country': ['USA', 'UK', 'Canada', 'USA', 'Germany', 'UK', 'Canada', 'Germany'],
    'Sales': [100, 50, 75, 60, 80, 90, 45, 70]
}

df = pd.DataFrame(data)

print(df)

Dette vil give output:


     Category  Country  Sales
0  Electronics      USA    100
1     Clothing       UK     50
2  Electronics   Canada     75
3     Clothing      USA     60
4   Home Goods  Germany     80
5  Electronics       UK     90
6     Clothing   Canada     45
7   Home Goods  Germany     70

Eksempel 1: Beregning af Samlet Salg pr. Kategori

For at beregne det samlede salg for hver produktkategori kan vi bruge groupby()-metoden efterfulgt af sum()-aggregeringsfunktionen.

            
category_sales = df.groupby('Category')['Sales'].sum()
print(category_sales)

Dette vil give output:


Category
Clothing       155
Electronics    265
Home Goods     150
Name: Sales, dtype: int64

Eksempel 2: Beregning af Gennemsnitligt Salg pr. Land

På samme måde kan vi bruge mean()-aggregeringsfunktionen for at beregne det gennemsnitlige salg pr. land.

            
country_sales = df.groupby('Country')['Sales'].mean()
print(country_sales)

Dette vil give output:


Country
Canada     60.0
Germany    75.0
UK         70.0
USA        80.0
Name: Sales, dtype: float64

Eksempel 3: Brug af Flere Aggregeringsfunktioner

Pandas giver dig mulighed for at anvende flere aggregeringsfunktioner samtidigt ved hjælp af agg()-metoden. Dette giver en omfattende oversigt over gruppens karakteristika.

            
category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', 'median', 'count'])
print(category_summary)

Dette vil give output:


             sum   mean  median  count
Category                               
Clothing       155  51.666667    50.0      3
Electronics    265  88.333333    90.0      3
Home Goods     150  75.000000    75.0      2

Eksempel 4: Brugerdefinerede Aggregeringsfunktioner

Du kan også definere dine egne brugerdefinerede aggregeringsfunktioner ved hjælp af lambda-udtryk eller navngivne funktioner. Dette giver dig mulighed for at beregne specifikke statistikker, der ikke er tilgængelige i standardaggregeringsfunktionerne.

            
# Brugerdefineret funktion til at beregne spændvidden (max - min)
def custom_range(x):
    return x.max() - x.min()

category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', custom_range])
print(category_summary)

Dette vil give output:


             sum   mean  custom_range
Category                              
Clothing       155  51.666667          15
Electronics    265  88.333333          25
Home Goods     150  75.000000          10

Transformation: Ændring af Data Inden for Grupper

Transformation involverer derimod at ændre dataene inden for hver gruppe baseret på en beregning. I modsætning til aggregering, som returnerer en opsummeret værdi for hver gruppe, returnerer transformation en værdi for hver række i de oprindelige data, men værdien beregnes baseret på den gruppe, som rækken tilhører. Transformationsoperationer bevarer det oprindelige indeks og formen af DataFrame.

Almindelige anvendelsestilfælde for transformation inkluderer:

Standardisering af data inden for hver gruppe.
Beregning af rang eller percentil inden for hver gruppe.
Udfyldning af manglende værdier baseret på gruppestatistikker.

Praktiske Eksempler på Transformation

Lad os fortsætte med vores internationale salgsdata. Vi kan anvende transformation til at udføre beregninger relateret til salgstallene inden for hvert land.

Eksempel 1: Standardisering af Salgsdata Inden for Hvert Land (Z-score)

Standardisering af data involverer at transformere værdierne, så de har et gennemsnit på 0 og en standardafvigelse på 1. Dette er nyttigt til at sammenligne data på tværs af forskellige skalaer og fordelinger. Vi kan bruge transform()-metoden sammen med et lambda-udtryk for at opnå dette.

            
from scipy.stats import zscore

df['Sales_Zscore'] = df.groupby('Country')['Sales'].transform(zscore)
print(df)

Dette vil give output:


     Category  Country  Sales  Sales_Zscore
0  Electronics      USA    100      1.000000
1     Clothing       UK     50     -1.000000
2  Electronics   Canada     75      1.000000
3     Clothing      USA     60     -1.000000
4   Home Goods  Germany     80      1.000000
5  Electronics       UK     90      1.000000
6     Clothing   Canada     45     -1.000000
7   Home Goods  Germany     70     -1.000000

Kolonnen Sales_Zscore indeholder nu de standardiserede salgsværdier for hvert land. Værdier over 0 er over det gennemsnitlige salg for det pågældende land, og værdier under 0 er under gennemsnittet.

Eksempel 2: Beregning af Salgsrangering Inden for Hver Kategori

For at beregne rangeringen af hvert salg inden for sin kategori kan vi bruge rank()-metoden inden i transform()-funktionen.

            
df['Sales_Rank'] = df.groupby('Category')['Sales'].transform(lambda x: x.rank(method='dense'))
print(df)

Dette vil give output:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    100      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA     60     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Kolonnen Sales_Rank angiver rangeringen af hvert salg inden for dets respektive kategori. Argumentet `method='dense'` sikrer, at fortløbende rangeringer tildeles uden huller.

Eksempel 3: Udfyldning af Manglende Værdier Baseret på Gruppegennemsnit

Lad os introducere nogle manglende værdier i salgsdataene og derefter udfylde dem baseret på det gennemsnitlige salg for hvert land.

            
import numpy as np

# Introducer manglende værdier
df.loc[[0, 3], 'Sales'] = np.nan

print(df)

# Udfyld manglende værdier baseret på landets gennemsnit
df['Sales_Filled'] = df['Sales'].fillna(df.groupby('Country')['Sales'].transform('mean'))
print(df)

Den oprindelige DataFrame med manglende værdier ville se således ud:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    NaN      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA    NaN     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Og efter at have udfyldt de manglende værdier:


     Category  Country  Sales  Sales_Zscore  Sales_Rank  Sales_Filled
0  Electronics      USA    NaN      1.000000         3.0          NaN
1     Clothing       UK     50     -1.000000         2.0           50.0
2  Electronics   Canada     75      1.000000         1.0           75.0
3     Clothing      USA    NaN     -1.000000         3.0          NaN
4   Home Goods  Germany     80      1.000000         2.0           80.0
5  Electronics       UK     90      1.000000         2.0           90.0
6     Clothing   Canada     45     -1.000000         1.0           45.0
7   Home Goods  Germany     70     -1.000000         1.0           70.0

Vigtig Bemærkning: Fordi der ikke eksisterede et gennemsnit for USA, er de resulterende værdier i Sales_Filled NaN. Håndtering af sådanne edge cases er afgørende for pålidelig dataanalyse og bør overvejes under implementeringen.

Aggregering vs. Transformation: Væsentlige Forskelle

Selvom både aggregering og transformation er kraftfulde GroupBy-operationer, tjener de forskellige formål og har forskellige karakteristika:

Output-form: Aggregering reducerer datastørrelsen og returnerer en enkelt værdi for hver gruppe. Transformation bevarer den oprindelige datastørrelse og returnerer en transformeret værdi for hver række.
Formål: Aggregering bruges til at opsummere data og få indsigt i gruppekarakteristika. Transformation bruges til at ændre data inden for grupper, ofte til standardisering eller normalisering.
Returværdi: Aggregering returnerer en ny DataFrame eller Series med de aggregerede værdier. Transformation returnerer en Series med de transformerede værdier, som derefter kan tilføjes som en ny kolonne til den oprindelige DataFrame.

Valget mellem aggregering og transformation afhænger af dine specifikke analytiske mål. Hvis du har brug for at opsummere data og sammenligne grupper, er aggregering det rette valg. Hvis du har brug for at ændre data inden for grupper, mens du bevarer den oprindelige datastruktur, er transformation den bedre mulighed.

Avancerede GroupBy-Teknikker

Ud over grundlæggende aggregering og transformation tilbyder Pandas GroupBy en række avancerede teknikker til mere sofistikeret dataanalyse.

Anvendelse af Brugerdefinerede Funktioner med `apply()`

apply()-metoden giver den største fleksibilitet, idet den giver dig mulighed for at anvende enhver brugerdefineret funktion på hver gruppe. Denne funktion kan udføre enhver operation, herunder aggregering, transformation eller endnu mere komplekse beregninger.

            
def custom_function(group):
    # Beregn summen af salg for hver kategori i en gruppe, kun hvis der er mere end én række i gruppen
    if len(group) > 1:
        group['Sales_Sum'] = group['Sales'].sum()
    else:
        group['Sales_Sum'] = 0  # Eller en anden standardværdi
    return group

df_applied = df.groupby('Country').apply(custom_function)
print(df_applied)

I dette eksempel definerer vi en brugerdefineret funktion, der beregner summen af salg inden for hver gruppe (land). apply()-metoden anvender denne funktion på hver gruppe, hvilket resulterer i en ny kolonne, der indeholder summen af salg for den pågældende gruppe.

Vigtig Bemærkning: apply-funktionen kan være mere beregningsmæssigt intensiv end de andre metoder. Optimer din kode og overvej alternative implementeringer, når du arbejder med massive datasæt.

Gruppering efter Flere Kolonner

Du kan gruppere dine data efter flere kolonner for at skabe mere granulære segmenter. Dette giver dig mulighed for at analysere data baseret på skæringspunktet mellem flere karakteristika.

            
category_country_sales = df.groupby(['Category', 'Country'])['Sales'].sum()
print(category_country_sales)

Dette vil gruppere dataene efter både Category og Country, hvilket giver dig mulighed for at beregne det samlede salg for hver kategori inden for hvert land. Dette giver et mere detaljeret overblik over salgsperformance på tværs af forskellige regioner og produktlinjer.

Iteration Gennem Grupper

For mere kompleks analyse kan du iterere gennem grupperne ved hjælp af en for-løkke. Dette giver dig mulighed for at få adgang til hver gruppe individuelt og udføre brugerdefinerede operationer på den.

            
for name, group in df.groupby('Category'):
    print(f"Category: {name}")
    print(group)

Dette vil iterere gennem hver produktkategori og udskrive de tilsvarende data. Dette kan være nyttigt til at udføre brugerdefineret analyse eller generere rapporter for hver kategori.

Bedste Praksis for Brug af GroupBy

For at sikre effektiv og virkningsfuld brug af GroupBy, bør du overveje følgende bedste praksis:

Forstå dine data: Før du anvender GroupBy, skal du tage dig tid til at forstå dine data og identificere de relevante grupperingkriterier og aggregerings-/transformationsfunktioner.
Vælg den rette operation: Overvej omhyggeligt, om aggregering eller transformation er det rette valg for dine analytiske mål.
Optimer for ydeevne: For store datasæt bør du overveje at optimere din kode ved at bruge vektoriserede operationer og undgå unødvendige løkker.
Håndter manglende værdier: Vær opmærksom på manglende værdier i dine data og håndter dem korrekt ved hjælp af metoder som fillna() eller dropna().
Dokumenter din kode: Dokumenter din kode tydeligt for at forklare formålet med hver GroupBy-operation og begrundelsen for dine valg.

Konklusion

Pandas GroupBy er et kraftfuldt værktøj til dataanalyse, der giver dig mulighed for at segmentere dine data, anvende funktioner på hver gruppe og udtrække værdifulde indsigter. Ved at mestre aggregerings- og transformationsteknikker kan du frigøre det fulde potentiale i dine data og opnå en dybere forståelse af de underliggende mønstre og tendenser. Uanset om du analyserer salgsdata, sensoraflæsninger eller social media-aktivitet, kan GroupBy hjælpe dig med at træffe datadrevne beslutninger og nå dine analytiske mål. Omfavn styrken ved GroupBy og løft dine dataanalysefærdigheder til det næste niveau.

Denne guide har givet et omfattende overblik over Pandas GroupBy-operationer med fokus på Aggregering vs. Transformation. Ved at bruge disse teknikker på internationale data kan data scientists verden over udtrække afgørende forretningsindsigter på tværs af forskellige datasæt. Øv, eksperimenter og tilpas disse teknikker til dine specifikke behov for at udnytte det fulde potentiale i Pandas.

Behersk Pandas GroupBy-Operationer: Aggregering vs. Transformation

Forståelse af GroupBy-Konceptet

Aggregering: Opsummering af Data Inden for Grupper

Praktiske Eksempler på Aggregering

Eksempel 1: Beregning af Samlet Salg pr. Kategori

Eksempel 2: Beregning af Gennemsnitligt Salg pr. Land

Eksempel 3: Brug af Flere Aggregeringsfunktioner

Eksempel 4: Brugerdefinerede Aggregeringsfunktioner

Transformation: Ændring af Data Inden for Grupper

Praktiske Eksempler på Transformation

Eksempel 1: Standardisering af Salgsdata Inden for Hvert Land (Z-score)

Eksempel 2: Beregning af Salgsrangering Inden for Hver Kategori

Eksempel 3: Udfyldning af Manglende Værdier Baseret på Gruppegennemsnit

Aggregering vs. Transformation: Væsentlige Forskelle

Avancerede GroupBy-Teknikker

Anvendelse af Brugerdefinerede Funktioner med apply()

Gruppering efter Flere Kolonner

Iteration Gennem Grupper

Bedste Praksis for Brug af GroupBy

Konklusion

Anvendelse af Brugerdefinerede Funktioner med `apply()`